【アンケートデータ可視化】データあるある〜データ構造編〜
こんにちは、データアナリティクス事業本部の武田です。
今日は、ブログリレー企画の「アンケートデータあるある」です。 アンケートデータでダッシュボードを作ろうとした時によくある困ったポイントがテーマです。
【アンケートデータあるある】
今回の記事では、「こういうデータが原因なので、データ加工をしてこういう状態にしたらいいよ」という説明をします。 具体的な加工方法は、ツール別に今後UPされていく予定ですので、そちらをご確認いただければと思います。
複数選択可の回答がカンマ区切りになっていて集計できない
複数選択可の回答がカンマ区切りになっている時は、「1行ずつにバラす」というデータ加工をしてからダッシュボードに取り込みましょう。
複数選択可の回答がカンマ区切りになっているというのは、こういう状態のデータです。
今回の場合は、区切り文字がカンマではなく、セミコロン(;)ですが、Googleフォームで複数選択可にするとカンマ区切りで出力されます。 このままの状態でグラフを描こうとすると、こんな風になってしまいます。
例えば、一番上の回答は、「外を歩くには天候が望ましくない時;買い物、飲食時」とあります。
「外を歩くには天候が望ましくない時」に1票、「買い物、飲食時」に1票とバラしてカウントしてほしいのですが、「外を歩くには天候が望ましくない時;買い物、飲食時」としてカウントされてしまっています。
(「買い物、飲食時」はこれで一つの選択肢です。「、」が入っていてわかりにくくなっていますが、これで一つの選択肢です。あくまで、区切りはセミコロンなので。)
このバラしてカウントさせるためには、下記のような状態に1行ずつデータを加工しないといけません。(行が増えます。)
このデータであれば、難なく下記のようなグラフが描けます。
というわけで、複数選択可の回答がカンマ区切りになっている時は、「1行ずつにバラす」というデータ加工をしてからダッシュボードに取り込みましょう。
この1行ずつにバラすのを手作業でやるには、非常に手間がかかりますので、別記事で紹介するツールを使うことをおすすめします。
表記揺れがあって集計できない
事前に表記揺れしないように統一しておくか、集計前にクレンジングして統一しておきましょう。
例えば、「男性、男」や「女性、女」のように、同じデータの中で同じ意味なのに語句が違う状態で登録されていると、集計もバラバラになってしまいます。
これを解決するには、事前に統一するしかありません。
この統一作業については、影響が他にでないことを確認した上で、エクセル等で「置換」を使ってもいいかもしれません。 ツールを使う方法もありますので、また別記事でご紹介します。
ヘッダーに「質問文」が入っていてシステム化できない
データの持ち方を変えて、ヘッダーに質問文が入らないようにしましょう。
こちらのデータもヘッダーのところに質問文が入っています。
ヘッダーに質問文が入っていても、今回だけのデータの可視化作業なら大きな問題はないかもしれません。
けれども、
「アンケートデータはちゃんとしたデータベースに格納したい」
「アンケートはたくさん実施する。質問数も質問文も毎回違う。」
としたらどうでしょうか?
ちゃんとしたデータベースに格納する場合、カラム名やカラム数は設計するときに決めたら、そうそう変更を加えるものではありません。 変更を加えるにはデータベースそのものに手を加えることになるので、システムの運用負荷がかかり続けることになります。 アンケートのたびに新しいテーブルを作り続けるというのも、現実的ではありません。
そうならないようにするためには、データの持ち方を変えておくのがベストです。
下記のような感じで、質問列としてデータを持っておけば、質問数が増減しても、質問内容が変わっても、データベースへ手を加える必要はありません。
この変換をするにはツールを使うのが現実的です。「ピボット変換」という行列の変換加工を行います。別記事でツールを使った加工方法をご紹介します。
まとめ
アンケートデータでダッシュボードを作るときの「あるある」をテーマに、「理想のデータの持ち方」を説明しました。具体的なデータ加工工程の詳しい内容は、これからUPされますので、どうぞお楽しみに!